智能论文笔记

How to marry a star: probabilistic constraints for meaning in context

Katrin Erk , Aurelie Herbelot

分类：自然语言处理

2020-09-16

在本文中，我们得出了“上下文中的单词含义”的概念，将其描述为强化和概念。我们介绍了一个框架，用于在上下文中指定对单词含义的局部和全局约束以及它们的相互作用，从而建模在话语解释中观察到的各种词汇转移和歧义。我们将句子表示为“情况描述系统”，这是一种概率模型，它将话语理解是一种对自己描述一种或多种情况描述的心理过程，该过程将解释观察到的话语。我们展示了如何在实践中实现该系统，并将其应用于包含各种背景化现象的示例。

translated by 谷歌翻译

Covariance regression with random forests

Cansu Alakus , Denis Larocque , Aurelie Labbe

分类： (统计)机器学习

2022-09-16

捕获基于协变量的多变量响应载体之间的条件协方差或相关性对于包括神经科学，流行病学和生物医学在内的各个领域很重要。我们提出了一种新方法，称为随机森林（covregrf），以使用随机森林框架估算一个多变量响应的协方差矩阵。随机林木的建造具有专门设计的分裂规则，以最大化儿童节点的样本协方差矩阵估计值之间的差异。我们还提出了对协变量子集的部分效应的显着性检验。我们通过一项模拟研究评估了提出的方法和显着性测试的性能，该研究表明该方法提供了准确的协方差矩阵估计值，并且Type-1误差得到了很好的控制。我们还证明了该方法与甲状腺疾病数据集的应用。

translated by 谷歌翻译

Responsible AI Pattern Catalogue: a Multivocal Literature Review

Qinghua Lu , Liming Zhu , Xiwei Xu , Jon Whittle , Didar Zowghi , Aurelie Jacquet

分类：人工智能

2022-09-12

负责任的AI被广泛认为是我们时代最大的科学挑战之一，也是释放AI市场并增加采用率的关键。为了应对负责任的AI挑战，最近已经发布了许多AI伦理原则框架，AI系统应该符合这些框架。但是，没有进一步的最佳实践指导，从业者除了真实性之外没有什么。同样，在算法级别而不是系统级的算法上进行了重大努力，主要集中于数学无关的道德原则（例如隐私和公平）的一部分。然而，道德问题在开发生命周期的任何步骤中都可能发生，从而超过AI算法和模型以外的系统的许多AI，非AI和数据组件。为了从系统的角度操作负责任的AI，在本文中，我们采用了一种面向模式的方法，并根据系统的多媒体文献综述（MLR）的结果提出了负责任的AI模式目录。与其呆在道德原则层面或算法层面上，我们专注于AI系统利益相关者可以在实践中采取的模式，以确保开发的AI系统在整个治理和工程生命周期中负责。负责的AI模式编目将模式分为三组：多层次治理模式，可信赖的过程模式和负责任的逐设计产品模式。这些模式为利益相关者实施负责任的AI提供了系统性和可行的指导。

translated by 谷歌翻译

Bayesian Complementary Kernelized Learning for Multidimensional Spatiotemporal Data

Mengying Lei , Aurelie Labbe , Lijun Sun

分类： (统计)机器学习 | 机器学习

2022-08-21

多维时空数据的概率建模对于许多现实世界应用至关重要。然而，现实世界时空数据通常表现出非平稳性的复杂依赖性，即相关结构随位置/时间而变化，并且在空间和时间之间存在不可分割的依赖性，即依赖关系。开发有效和计算有效的统计模型，以适应包含远程和短期变化的非平稳/不可分割的过程，成为一项艰巨的任务，尤其是对于具有各种腐败/缺失结构的大规模数据集。在本文中，我们提出了一个新的统计框架 - 贝叶斯互补内核学习（BCKL），以实现多维时空数据的可扩展概率建模。为了有效地描述复杂的依赖性，BCKL与短距离时空高斯过程（GP）相结合的内核低级分解（GP），其中两个组件相互补充。具体而言，我们使用多线性低级分组组件来捕获数据中的全局/远程相关性，并基于紧凑的核心函数引入加法短尺度GP，以表征其余的局部变异性。我们为模型推断开发了有效的马尔可夫链蒙特卡洛（MCMC）算法，并在合成和现实世界时空数据集上评估了所提出的BCKL框架。我们的结果证实了BCKL在提供准确的后均值和高质量不确定性估计方面的出色表现。

translated by 谷歌翻译

Protein Representation Learning by Geometric Structure Pretraining

Zuobai Zhang , Minghao Xu , Arian Jamasb , Vijil Chenthamarakshan , Aurelie Lozano , Payel Das , Jian Tang

分类：机器学习

2022-03-11

学习有效的蛋白质表示在生物学的各种任务中至关重要，例如预测蛋白质功能或结构。现有的方法通常在大量未标记的氨基酸序列上预先蛋白质语言模型，然后在下游任务中使用一些标记的数据来对模型进行修复。尽管基于序列的方法具有有效性，但尚未探索蛋白质性能预测的已知蛋白质结构的预处理功能，尽管蛋白质结构已知是蛋白质功能的决定因素，但尚未探索。在本文中，我们建议根据其3D结构预处理蛋白质。我们首先提出一个简单而有效的编码器，以学习蛋白质的几何特征。我们通过利用多视图对比学习和不同的自我预测任务来预先蛋白质图编码器。对功能预测和折叠分类任务的实验结果表明，我们提出的预处理方法表现优于或与最新的基于最新的序列方法相提并论，同时使用较少的数据。我们的实施可在https://github.com/deepgraphlearning/gearnet上获得。

translated by 谷歌翻译

Benchmarking deep generative models for diverse antibody sequence design

Igor Melnyk , Payel Das , Vijil Chenthamarakshan , Aurelie Lozano

分类：自然语言处理

2021-11-12

计算蛋白质设计，即推断与给定结构一致的新型和多样的蛋白质序列仍然是一个主要的未解决的挑战。最近，从单独的序列或序列和结构中学习的深度生成模型在此任务上表现出令人印象深刻的性能。然而，这些模型在建模结构约束方面出现有限，捕获足够的序列分集或两者。在这里，我们考虑三个最近提出的蛋白质设计的深度生成框架：（AR）基于序列的自回归生成模型，（GVP）基于精确的结构形式的图形神经网络，以及折叠模糊的模糊和无规模表示的折叠表示 - 折叠，同时强制执行结构到序列（反之亦然）一致性。我们基准这些模型对抗体序列计算设计的任务，要求设计具有高多样性的序列以进行功能含义。在设计序列的多样性方面，FOLD2SEQ框架突出了两个其他基线，同时保持典型的折叠。

translated by 谷歌翻译